第 11 屆 iThome 鐵人賽

DAY 27

Google Developers Machine Learning

Google machine learning 學習筆記系列第 27 篇

【Day 27】 Google ML - Lesson 11 - 我們應該何時停止ML模型的訓練? 利用驗證資料集, 測試資料集, 交叉驗證(cross-validation) 評估模型訓練結果的好壞

11th鐵人賽 #mlstudyjam

嗡嗡

2019-09-28 18:38:22

15465 瀏覽

分享至

前言

這幾天的文章會是一系列的，會需要一起看才比較能看懂整個ML模型的輪廓，
然而因為一天能寫的內容量有限，所以我會在前言部分稍微說明我寫到哪。

複習一下ML的整個訓練過程

因為ML模型的訓練階段章節內容會分很多部分，我們要先確認好自己在哪個階段，
以免吸收新內容卻不知道用在內容的什麼地方。

★ 「訓練一個ML模型」的整個過程：這裡以監督式學習(Supervised Learning)為例

階段	要做的事情	簡介
(`訓練前`)	決定資料集與分析資料	你想要預測的是什麼資料? 這邊需要先知道 `example`、`label`、`features`的概念。介紹可參考：【Day 15】，而我們這次作為範例的訓練資料集介紹在【Day 19】。
(`訓練前`)	決定問題種類	依據資料，會知道是什麼類型的問題。`regression problem(回歸問題)`? `classification problem(分類問題)`? 此處可參考：【Day 16】、與進階內容：【Day 17】
(`訓練前`)	決定ML模型(ML models)	依據問題的種類，會知道需要使用什麼對應的ML模型。`回歸模型(Regression model)`? `分類模型(Classification model)`? 此處可參考：【Day 18】，`神經網路(neural network)`? 簡介於：【Day 25】
	(模型裡面的參數)	ML模型裡面的`參數(parameters)`與`超參數(hyper-parameters)` 此處可參考：【Day 18】
(`訓練中`) 調整模型	評估當前模型好壞	`損失函數(Loss Functions)`：使用損失函數評估目前模型的好與壞。以`MSE(Mean Squared Error)`, `RMSE(Root Mean Squared Error)`, `交叉熵(Cross Entropy)`為例。此處可參考：【Day 20】
(`訓練中`) 調整模型	修正模型參數	以`梯度下降法 (Gradient Descent)`為例：決定模型中參數的修正「方向」與「`步長(step size)`」此處可參考：【Day 21】
(`訓練中`) 調整腳步	調整學習腳步	透過`學習速率(learning rate)`來調整ML模型訓練的`步長(step size)`，調整學習腳步。(此參數在`訓練前`設定，為`hyper-parameter`)。此處可參考：【Day 22】
(`訓練中`) 加快訓練	取樣與分堆	設定`batch size`，透過`batch`從訓練目標中取樣，來加快ML模型訓練的速度。(此參數在`訓練前`設定，為`hyper-parameter`)。與`迭代(iteration)`,`epoch`介紹。此處可參考：【Day 23】
(`訓練中`) 加快訓練	檢查loss的頻率	調整「檢查loss的頻率」，依據`時間(Time-based)`與`步驟(Step-based)`。此處可參考：【Day 23】
(`訓練中`) 完成訓練	(loop) -> 完成	重覆過程(評估當前模型好壞 -> 修正模型參數)，直到能`通過「驗證資料集(Validation)」的驗證`即可結束訓練。此處可參考：【Day 27】
(`訓練後`)	訓練結果可能問題	`「不適當的最小loss?」` 此處可參考：【Day 28】
(`訓練後`)	訓練結果可能問題	`欠擬合(underfitting)`?`過度擬合(overfitting)`? 此處可參考：【Day 26】
(`訓練後`)	評估 - 性能指標	`性能指標(performance metrics)`：以`混淆矩陣(confusion matrix)`分析，包含「`Accuracy`」、「`Precision`」、「`Recall`」三種評估指標。簡介於：【Day 28】、詳細介紹於：【Day 29】
(`訓練後`)	評估 - 新資料適用性	`泛化(Generalization)`：對於新資料、沒看過的資料的模型適用性。此處可參考：【Day 26】
(`訓練後`)	評估 - 模型測試	使用「`獨立測試資料集(Test)`」測試? 使用`交叉驗證(cross-validation)`(又稱`bootstrapping`)測試? 此處可參考：【Day 27】
	(資料分堆的方式)	(`訓練前`) 依據上方「模型測試」的方法，決定資料分堆的方式：訓練用(Training)、驗證用(Validation)、測試用(Test)。此處可參考：【Day 27】

★ 從上面的訓練中，找到「最好的」ML模型：【Day 27】

原因：「訓練好一個模型」不等於「找到最好的模型」

階段	要做的事情
(`訓練模型`)	使用「訓練資料集(Training)」訓練模型(調整參數)，也就是「`上方表格`」在做的內容
(`結束訓練`)	訓練到通過「驗證資料集(Validation)」結束訓練(未達到`overfitting`的狀態前)
(`模型再調整`)	`超參數(hyperparameters)`調整或神經網路的「layer數」或「使用的node數」(一些`訓練前`就會先決定的東西)
(loop)	(`模型再調整`)後，重複上述(`訓練模型`)、(`結束訓練`)，完成訓練新的模型
(`找到最佳模型`)	從「所有訓練的模型」中，找到能使「驗證用資料集(Validation)」最小的loss，完成(`找到最佳模型`)
(`決定是否生產`)	可以開始決定要不要將此ML模型投入生產。此時我們可以使用「`獨立測試資料集(Test)`」測試? 使用`交叉驗證(cross-validation)`(又稱`bootstrapping`)測試?

★小實驗系列：

文章	實驗內容
【Day 24】	TensorFlow Playground 的簡介與介面介紹
【Day 24】	`learning rate` 的改變對訓練過程的影響
【Day 25】	使用`神經網路(neural network)`分類資料
【Day 25】	觀察`batch size`如何影響`gradient descent`

Course - Launching into Machine Learning

第四章節的課程地圖：(紅字標記為本篇文章中會介紹到的章節)

Generalization and Sampling
- Introduction to Generalization and Sampling
  - Introduction
- Generalization
  - Generalization and ML Models
  - When to Stop Model Training
- Sampling
  - Creating Repeatable Samples in BigQuery
- Demo of Splitting Datasets in BigQuery
- Lab: Creating Repeatable Dataset Splits
  - Lab Introduction
  - Lab: Creating Repeatable Dataset Splits in BigQuery
  - Lab Solution Walkthrough
- Lab: Exploring and Creating ML Datasets
  - Lab Introduction
  - Lab: Exploring and Creating ML Datasets
  - Lab Solution Walkthrough
- Module Quiz

0. 先整理今天重點

★ 何時停止訓練，加上「驗證用資料集」的整個ML模型訓練過程：

階段	要做的事情
(`訓練模型`)	使用「訓練用資料集」訓練模型(調整參數)，也就是我們訓練在做的內容
(`結束訓練`)	訓練到通過「驗證用資料集」結束訓練(未達到`overfitting`的狀態前)
(`模型再調整`)	調整`超參數(hyperparameters)`或神經網路的「layer數」或「使用的node數」(一些`訓練前`就會先決定的東西)
(loop)	(`模型再調整`)後，重複上述(`訓練模型`)、(`結束訓練`)，完成訓練新的模型
(`找到最佳模型`)	從「所有新訓練的模型」中，找到能使「驗證用資料集」最小的loss，完成(`找到最佳模型`)
(`決定是否生產`)	可以開始決定要不要將此ML模型投入生產。此時我們可以使用獨立「測試資料集」測試? 或使用`交叉驗證(cross-validation)`(又稱`bootstrapping`)測試? 可參考：【Day 27】

★ 評估模型好壞的方法：

比較	獨立的「測試資料集」測試	`交叉驗證(cross-validation)` (或稱為`bootstrapping`)
總資料多寡	適合「總資料量較多」的	適合「總資料量較少」的
資料分組方式	分成三組：training(訓練用), validation(驗證用), test(測試用)	分成兩大組：training(訓練用), validation(驗證用)，然後各大組再細分成很多小組。

1. When to Stop Model Training

課程地圖

Generalization and Sampling
- Generalization
  - When to Stop Model Training

為了幫助我們能建立適合的ML模型，
(例如線性回歸(linear regression)或神經網路(neural network))
我們可以使用驗證資料集(validation dataset)來幫助調整適合模型的超參數(hyperparameters)

複習：

超參數(hyperparameters)指的是在訓練前就設定好的參數。

1.1. 「驗證用」資料集(validation dataset)

調整超參數(hyperparameters)的過程是透過連續進行訓練完成的，
然後我們再將這些訓練與對應獨立的「驗證用資料集(validation dataset)」進行驗證，
確認沒有過度擬合(overfitting)的現象。

這裡顯示出我們的「驗證用資料集(validation dataset)」在訓練期間是如何被使用的。

在最佳化的過程中，訓練模型的過程：
(一開始參數皆為隨機生成)

從目前模型參數的權重(weight)計算導數(derivative)
觀察梯度下降(gradient descent)的loss曲線方向
嘗試透過修改模型參數(parameters)最小化loss指標
然後重複

自己的註：

這邊稍微補點數學說明，為什麼第一點的參數只看權重(weight)?
因為bias是常數項，微分會消失。
例如：y=ax+b，微分我們只需在意a，就不用在意b了。

現在，我們還需要定期的使用「訓練未看過」的數據，
我們稱為「驗證用資料集(validation dataset)」，來評估模型目前的性能，

在完成一次完整的訓練後，我們依照「驗證用資料集」驗證模型的結果，
看目前的超參數(hyperparameters)是否有用，是否可以進行更多的調整。
如果「訓練用資料集」與「驗證用資料集」計算的loss差不多，
那我們可以考慮先停下來，並重新優化超參數(hyperparameters)。

而只要對損失指標進行了充分優化，並通過了「驗證用資料集」的驗證，
(記得時間點是：在兩個資料集loss開始出現一些差異，但未達到overfitting的狀態時)
這時我們就應該先停止訓練，然後決定這個模型是否可以投入生產。

現在我們也可以用類似的循環去調整各個ML模型的參數，
就像我們在訓練前對超參數(hyperparameters)所進行的操作一樣。

例如：如果神經網路的層數或應該使用的節點數。
類似超參數(hyperparameters)一樣，會在訓練前就先設定好的。

你將會使用其中一種配置(例如一個只有六個節點的神經網路)，
然後再訓練另外一種，最後都用「驗證用資料集」來看哪一種配置表現得更好。
最後，我們會選擇一種模型配置，這個配置能夠使「驗證用資料集」產生出最少的loss。
(記得：上章我們提過，如果只是讓「訓練用資料集」loss最小是不夠的。)

★ 自己做個小結論，加上「驗證用資料集」的整個ML模型訓練過程：

使用「訓練用資料集」訓練模型(調整參數)

重複1.，直到通過「驗證用資料集」結束訓練(未達到overfitting的狀態前)

調整超參數(hyperparameters)或神經網路的「layer數」或「使用的node數」

重新1.2.3.，直到找到能使「驗證用資料集」最小的loss，完成全部訓練

並可以開始決定要不要將此ML模型投入生產。

(google提供的輔助工具：)
在之後的課程中，我們也會用Cloud ML Engine示範在超參數空間(hyperparameter space)做bayesian short search，
也就是說我們不需要一次對一個超參數(hyperparameter)進行這樣的實驗。
Cloud ML的引擎能幫忙我們使用不同的最佳化策略，
並且以平行處理的方式進行這類實驗。

1.2. 獨立的「測試用」資料集(test dataset) 評估法

當我們完成訓練之後，我們必須還要能告訴別人這模型有多好。

那麼，你打算將哪個資料集作為最終通過與不通過的評估?
我們可以簡單的說，對於「驗證資料集」我們的模型最後有多少的loss嗎?
(在我們的「訓練資料集」結果差不多的情況下。)

這樣想是不行的，因為我們已經用了「驗證資料集」作為停止我們訓練的依據，
這樣表示「驗證資料集」已經不是獨立的了(模型已經看過了)。
我們可以先想想該怎麼辦?

自己的註：

如果又拿這組「驗證資料集」，我們的模型是在確定「驗證資料集沒問題」的情況下才停止訓練，
也就是說模型一定已經對於「訓練資料集」、「驗證資料集」都很清楚且能夠得到高分。
所以我們還必須使用「其他的資料集」來證明這模型的預測是好的。

所以，我們必須在一開始就將資料集分成三等份：

training：訓練用資料集
validation：驗證用資料集
test：測試用資料集

只要我們的模型開始被訓練或驗證，我們就可以做「一次」分類，
而且要注意的是，這分類從頭到尾只能夠使用「一次」。

自己的註：

這邊指的意思應該是，「訓練用資料集」、「驗證用資料集」、「測試用資料集」，
一旦被決定了，就不能任意再重分，
因為一組資料集只要被模型看過一次，如果再被看過第二次，這樣的測試就是不獨立的。

而這組「測試用資料集」的結果正是我們可以告訴別人我們的模型有多好的依據，
我們可以拿這組「測試用資料集」的loss作為指標，決定要不要拿來生產用。

那至於如果我們在「測試用資料集」中預測的很差呢?
甚至是我們好不容易都通過了「驗證用資料集」的檢查。

那就表示我們不可以重新測試同樣的ML模型，我們應該要重新訓練全新的ML模型。
或者是收集更多的資料，去提供更多的新資料給你的ML模型。

自己的註：

所以「測試用資料集」失敗就可以開始思考直接砍掉重練的意思嗎QQ

1.3. `交叉驗證(cross-validation)`與`bootstrapping` 評估法

我們再來思考一個很小很小問題，雖然目前這方法已經很好了。
沒有人喜歡浪費資料，但「測試用資料集」只使用了一次，
似乎很浪費，但他有被保留下來。

我們難道不能在訓練時使用所有的資料，然後依然能合理的告訴別人模型的表現嗎?

答案是可以的。

這方法就是我們將「訓練用資料集」、「驗證用資料集」拆分成好幾等分，並且在不同的時間使用。

訓練後並使用「驗證用資料集」計算Loss，這個「驗證用資料集」可能包含「第一次訓練」中未使用的資料，
然後我們再重新拆分資料，現在我們的「訓練用資料集」可能包含著「第一次驗證」時所使用的資料，
然後我們可能需要進行多次的迭代(iteration)。

最後在多輪的迭代(iteration)之後，我們可以對於整個「驗證用資料集」進行loss的平均，
我們就會得到整個「驗證用資料集(validation)」的loss標準差，
這個值能夠幫助我們分析最終loss與它們的散佈情形。

這樣的方法我們稱為交叉驗證(cross-validation)或bootstrapping，
他的好處是，我們可以使用到所有的數據，但由於要將模型拆分成很多等份，
因此我們也必須要訓練很多次。

1.4. 評估方法小結論

如果你有大量的資料集，你應該使用獨立的「測試資料集」測試，並判斷這個模型訓練有沒有通過。
如果你沒有那麼多資料，你應該使用交叉驗證(cross-validation)的方法。
- 至於，如何實際將大數據集拆分成這一份一分的資料?
  這個就是在下一章取樣(sampling)我們要來詳細討論的事情。